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面向 高 校 学 生 微 博 的 跨 粒 度 情感 分 析 


刘 丽 ， 岳 亚 伟 
(山西 农业 大 学 软件 学 院 ， 山 西 太 谷 030801) 


摘 要 : 传统 的 微 博 情 感 分 析 往 往 忽 略 不 带 感情 色彩 的 情感 词 对 微 博 情感 的 影响 ， 并 缺乏 对 复杂 句 式 的 分 析 。 为 此 ， 
提出 结合 条 件 随 机 场 〈conditional random filed，CRF) 和 复杂 名 式 的 跨 粒 度 情感 分 析 方 法 。 该 方法 在 CRF 模型 的 基础 
上 ， 融 合 复杂 句 式 特征 和 语义 依存 特征 ， 对 学 生 微 博 进 行 细 粒 度 情感 分 析 ， 识 别 出 微 博文 本 中 的 情感 要 素 ， a 
上 ， 通 过 基于 复杂 句 式 的 粗 粒度 de 实现 对 学 生 总 体 情感 倾向 的 跨 粒度 分 析 。 
ep 全 情感 要 素 识 别 的 综合 准确 率 达 88% 左 右 ， ee 
达 87% 左 右 。 比 起 传统 的 情感 分 析 方 法 ， 准 确 率 更 高 ， 分 类 效果 更 好 。 
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Cross-grained sentiment analysis oriented to college student micro-blog 


Liu Li Yue Yawel 
(School of Software Shanxi Agricultural University, Taigu Shanxi 030801, China) 


Abstract: Traditional sentiment analysis of micro-blog often ignore the influence of sentiment words that have no sentimental 
color on micro-blog sentiment, and lack of analysis for complex sentence. To solve the problem, this paper proposed a method 
of cross-grained sentiment analysis based on conditional random filed and complex sentence, which fused complex sentence 
and semantic dependency features on the basis of CRF. It can identify sentiment elements by analyzing micro-blog sentiment in 
fine-grained. The method of coarse-grained sentiment analysis based on complex sentence was used to analyze sentimental 
tendency of student micro-blog. Finally, the experimental results show that the accuracy on sentiment elements can reach 88%, 


furthermore, the accuracy of micro-blog sentimental tendency can reach 87%. Compare to traditional method, the method we 


proposed has higher accuracy and better performance. 
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动态 ， 及 时 与 学 生 沟通 ， 并 作出 正确 的 引导 。 
青 感 分 析 按 照 分 析 粒 度 的 不 同 ， 有 粗 粒 度 情感 分 析 和 细 粒 

随 着 网 络 的 发 展 , 人们 表达 情感 的 方式 也 逐渐 趋 于 多 样 化 ， ”上 度 情感 分 析 ， 粗 粒度 情感 分 析 是 对 篇 章 和 句子 进行 情感 分 析 ， 
多 的 是 通过 网 络 平台 ， 以 文本 的 形式 来 表达 。 尤 其 对 于 当代 ” 细 粒 度 情感 分 析 是 对 短语 或 者 词语 进行 情感 分 析 。 对 高 校 学 生 
的 高 校 大 学 生 ， 好 奇 心 强 ， 接 受 新 事物 的 能 力 强 ， 更 容易 接受 微 博 的 情感 分 析 属 于 粗 粒度 的 情感 分 析 ， 主 要 包括 情感 词典 法 
现在 较 发 达 的 社交 平台 。 通 过 这 些 平台 他 们 可 以 接受 到 最 新 的 和 机 器 学 习 法 。 
网 络 信息 ， 包 括 各 种 社会 新 闻 、 娱 乐 八卦 、 前 沿 科技 等 ， 也 可 情感 词典 法 需要 将 分 词 后 的 文档 或 句子 中 的 每 个 词 与 情感 
以 通过 这 些 平台 发 表意 见 、 表 达 情 感 、 记 录 生 活 点 滴 。 微 博 就 “词典 中 的 词 进行 匹配 ,并 统计 匹配 成 功 的 正 负面 情感 词 的 数量 ， 
是 这 样 一 种 社交 平台 ， 在 这 里 ， 学 生 可 以 表达 自己 的 情绪 和 观 。 通过 数量 判断 文本 的 情感 倾向 。 为 了 能 更 准确 地 识别 情感 词 ， 
点 ， 获 取 学 生发 布 的 这 些 信息 能 够 方便 高 校 管理 者 更 好 的 了 解 ” 肖 江 等 人 串 构 建 了 基准 情感 词典 ， 并 在 基准 情感 词典 的 基础 上 
学 生 的 思想 动态 ， 捕 捉 学 生 整 体 的 情感 倾向 。 但 是 如 果 仅 靠 人 ”构建 了 相关 领域 情感 词典 ， 采 用 相似 度 计算 的 方法 确定 领域 情 
工 浏 览 ， 无 法 应 对 海量 的 学 生 微 博 ， 因 此 情感 分 析 技术 应 运 而 ” 感 词 的 情感 倾向 。 文 献 [2] 主 要 是 基于 中 文 微 博 构建 情感 词典 ， 
生 。 通 过 对 微 博文 本 进行 情感 分 析 , 可 以 提取 大 量 有 价值 信息 采用 的 方法 是 扩展 的 点 互信 息 So-PMI 算法 ， 可 以 自动 获得 领 
分 析出 学 生 的 喜 既 哀乐， 对 于 高 校 管理 者 而 言 ， 可 以 获取 最 新 或 情感 词 ， 并 加 入 到 基础 情感 词典 中 启 。 这 类 方法 从 情感 词 
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出 发 ， 机 械 的 将 分 词 后 的 文本 与 情感 词典 进行 匹配 ， 匹 配 成 功 。” 析 ， 好 的 特征 对 情感 分 析 有 至 关 重要 的 作用 。 
则 认为 是 带 有 感情 色彩 的 情感 词 , 如 :“ 好 难过 啊 , 一 天 的 课 ”。 本 文 旨 在 对 高 校 学 生 微 博 进行 情感 分 析 ， 需 要 粗 粒度 的 情 
情感 词典 匹配 法 就 会 将 “好 ”和 “难过 ”都 标记 为 情感 词 ， 但 实际 。” 感 分 析 方 法 ， 但 是 粗 粒度 的 分 析 微 博 句 子 ， 缺 乏 对 不 带 感情 色 
上 “好 ”在 文本 中 是 程度 副词 , 修饰 情感 词 “难过 ”, 表达 “难过 "的 。” 彩 的 情感 词 的 分 析 , 也 忽 咯 了 复杂 句 式 对 微 博 情感 倾向 的 影响 。 
程度 .显然 ,情感 词典 法 无 法 正确 匹配 不 带 感 情色 彩 的 情感 词 。 ”因此 融合 细 粒 度 情感 分 析 ， 提 出 跨 粒 度 情感 分 析 方法 ， 细 粒 
因此 情感 分 析 的 效果 往往 不 理想 。 情感 分 析 将 复杂 句 式 特征 和 语义 依存 特征 融入 到 条 件 随机 场 中 ， 

机 器 学 习 法 ， 需 要 标注 文本 语 料 ， 利 用 机 器 学 习 模 型 训练 。 ”可 以 充分 分 析 不 带 感情 色彩 的 情感 词 ， 识 别 出 微 博 句 子 中 的 真 
这 些 语 料 , 得 到 文本 分 类 模型 。 常 用 支持 向 量 机 、 朴素 贝 叶 斯 、 ” 正 的 正 负 面 情感 词 ， 而 且 还 可 以 识别 出 影响 微 博 情感 倾向 的 复 
最 大 焙 模 型 为 分 类 模型 。Catal 等 人 外 采用 了 多 种 分 类 器 进行 情 。 杂 结构 词 。 结 合 识别 出 的 情感 词 和 复杂 结构 词 ， 采 用 基于 复杂 
感 分 析 ， 包括 朴素 贝 叶 斯 算法 、 支 持 向 量 机 、Bagging 算法 , 最 。” 句 式 的 粗 粒 度 情感 分 析 方 法 分 析 微 博文 本 的 情感 倾向 ， 从 而 实 
后 利用 投票 算法 决定 分 类 的 最 终结 果 。 现 粗 粒度 和 细 粒 度 情感 分 析 相互 强化 的 跨 粒 度 情感 分 析 。 
本 NA 

文 的 情感 分 析 ，Co-training 协同 训练 算法 可 以 实现 语 料 的 9 
自主 标注 ,省 时 省 力 , 再 利用 SVM 算法 实现 推 文 的 情感 分 类 。 ”1.1 条 件 随机 场 模型 

但 是 机 器 学 习 模 型 ， 在 判断 文档 和 句子 的 情感 倾向 时 ， 跟 条 件 随机 场 模型 思想 主要 来 源 于 最 大 炉 模 型 ，2001 年 被 
情感 词典 法 一 样 , 极 有 可 能 忽略 文本 中 不 带 感 情色 彩 的 情感 词 ， ”Lafferty 等 人 I 首次 提出 ， 克 服 了 隐 马 尔 科 夫 模型 严格 独立 假 
而 且 缺 乏 对 复杂 句 式 的 考虑 。 因 此 ,需要 结合 细 粒 度 情感 分 析 ， ” 设 的 要 求 ， 可 以 以 序列 标注 的 形式 将 情感 要 素 提取 出 来 。 首 先 
先 识别 出 真正 影响 文本 情感 倾向 的 情感 要 素 ， 再 分 析 微 博文 本 ”将 经 过 分 词 的 微 博文 本 作为 观察 序列 , 如 : X={ x ,x ,x .……}， 
的 情感 倾向 。 x 为 分 词 后 的 词语 , 将 观察 序列 作为 CRF 模型 的 输入 数据 , 所 
细 粒 度 情感 分 析 可 以 分 析出 影响 情感 表达 的 各 个 要 素 ， 包 ”有 可 能 的 标注 状态 的 条 件 概率 就 被 计算 出 来 ， 最 后 选择 条 件 概 
括 情感 对 象 ， 正 负面 情感 词 以 及 影响 文本 情感 倾向 的 结构 词 。 ” 率 最 大 的 那个 标注 状态 输出 ， 即 Y={ yy , y, ,yy…}， 汶 为 对 应 
Hu 等 人 加 认为 评价 对 象 一 般 是 名 词 或 名 词 短语 , 评价 词 一 般 为 。 的 的 标注 状态 03， 具 体 计算 公式 如 下 ; 
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EF 


容 词 ， 采用 3 见 贝 二 来 亿 见 情感 要 世 
形容 词 ， 因 此 采用 关 焉 规则 法 来 实现 情感 要 素 的 抽取 。 文献 [6] Te 
也 是 基于 关联 规则 法 ， 制 定 了 产品 属性 词 与 情感 词 之 间 对 应 的 20) 4 


词性 模板 ， 然 后 基于 该 模板 提出 了 一 种 抽取 属性 词 及 其 对 应 情 。 其 中 : Z(X) 为 归 一 化 因子 ， 可 使 求 得 的 概率 P 满足 概率 要 求 ， 

感 词 的 算法 ， 实 现 了 产品 属性 词 和 匹配 情感 词 的 识别 四 。Xu 等 计算 公式 如 下 : 

人 了 中 首先 识别 出 情感 名 ， 然 后 利用 句子 结构 特征 和 词语 搭配 关 

系 ， 抽 取出 与 情感 发 起 者 最 相关 的 核心 词语 ， 再 结合 句法 特征 

扩展 核心 词语 ， 最 终 情 感 发 起 者 即 为 扩展 后 的 最 长 名 词 短 语 。 其 中 : X 为 观察 序列 ， 即 分 词 后 的 微 博文 本 ，Y 为 文本 的 标注 
李 阳 辉 等 人 提出 基于 深度 学 习 的 细 粒 度 情感 分 析 ， 不 同 。” 结果 序列 ，A(y,3,X,D) 为 任意 的 布尔 型 特征 函数 ， 勾 为 特征 

于 文献 [5~7] 对 单一 语 料 的 细 粒 度 情感 分 析 , 它 分 析 的 对 象 来 自 函数 对 应 的 权 值 ， 选 取 了 最 大 时 的 输出 序列 ， 即 为 观察 序列 的 


Z(X)=expO ,2 4 f(y,,y,,X,)) O) 


不 同 的 语 料 ， 包 括 评价 词典 、 微 博 、 影 评 、 知 乎 等 ， 分 析 的 粒 ”标注 状态 。 
度 从 词语 级 别 到 篇 章 级 别 。 1.2 语 料 标注 
这 类 方法 都 属于 无 监督 学 习 方法 ， 没 有 充分 利用 文本 语言 本 文选 用 的 语 料 ， 是 通过 扑 虫 获取 的 “山西 农业 大 学 ”学生 
特征 ， 忽 略 了 词 与 词 之 间 的 语义 依存 关系 。 的 相关 微 博文 本 ， 总 共 10000 条 。 情 感 要 素 的 抽取 需要 大 量 标 
有 监督 学 习 方 法 通常 是 利用 机 器 学 习 模型 来 进行 情感 分 析 ， ” 注 语 料 , 人 工 标注 的 方式 可 靠 却 效率 低下 。 故 采取 文献 [13] 提 出 


I 


常用 的 机 器 学 习 模 型 有 隐 马 尔 科 夫 模型 和 条 件 随 机 场 模型 , Jin 的 基于 MapReduce 的 协同 训练 (Tri-training) 模 型 对 语 料 进行 
等 人 处 提出 词汇 化 的 隐 马 尔 科 夫 (hidden Markov models,HMM) 自动 标注 由。 具体 的 标注 状态 分 为 四 类 : 正面 情感 (Positive 
框架 进行 意见 挖掘 分 析 ， 通 过 序列 标注 的 方法 将 与 产品 相关 的 ” ”Sentiment,PS ) 词 , 即 识别 出 的 词语 若 为 正面 情感 词 , 简 记 为 PS; 
各 个 实体 及 对 实体 的 相关 意见 标注 出 来 ， 从 而 确定 意见 对 象 ”负面 情感 Negative Sentiment,NS) 词 ， 即 识别 出 的 词语 若 为 负 
意见 词 ， 但 仅 选 取 了 词性 和 上 下 文 线索 为 特征 ， 没 有 充分 利用 面 情 感 词 ， 简 记 为 NS; 复杂 结构 〈Complicated Structure,CS) 
各 种 语言 特征 。Liu 等 人 09 将 条 件 随机 场 与 最 大 粒 模 型 相 结 合 ” 词 ， 即 识别 出 的 词语 若 为 复杂 结构 词 ， 简 记 为 CS; 背景 
进行 情感 分 析 ， 提 取 词 、 上 下 文 信息 ， 词 的 位 置 等 特征 ， 利 用 (Background word, BW) 词 ,， 即 识别 出 的 词语 若 为 背景 词 ， 简 
条 件 随 机 场 进行 序列 标注 , 提取 unigram、bigram 特征 , 选用 最 。 记 为 BW。 详 细 说 明 如 表 1 所 示 。 

大 粮 模型 判断 整个 句子 的 情感 倾 徊 。 这 类 方法 都 是 在 机 器 学 习 

模型 的 基础 上 ， 选 取 一 些 语言 特征 ， 实 现 文 本 的 细 粒 度 情感 分 
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录用 稿 
表 1 标注 集 说 明 
标注 说 明 
CS ”表明 该 词 为 影响 微 博 情 感 倾向 的 结构 词 ， 如 转折 词 、 否 定 词 
PS 表明 该 词 为 表达 正面 情感 或 正面 情绪 的 词 
NS 表明 该 词 为 表达 负面 情感 或 负面 情绪 的 词 
BW 表明 该 词 是 CS，PS，NS 三 种 词 之 外 的 其 他 词 


有 一 定 的 辅助 作用 1。 

复杂 句 式 特征 ， 指 影响 微 博文 本 情感 倾向 的 一 些 复杂 结构 
词 ， 主 要 包括 转折 结构 词 和 否定 结构 词 。 转 折 结 构 词 即 微 博文 
本 中 的 转折 连词 ， 比 如 :“ 周 末 好 开心 啊 , 但 突然 想到 一 堆 作 ， 
没 写 , 伤心 中 .…..”， 此 文本 中 的 一 个 转折 词 “ 但 ”将 文本 整体 情 
感 完 全 逆转 ， 如 果 不 考虑 此 类 结构 词 ， 很 难 判断 文本 的 真正 情 


1.3 扩展 情感 词典 


现在 的 微 


络 词汇 ， 如 “ 无 语 、 醇 了 、 蓝 瘦 香 菇 ”等 词语 ,一些 
“ 蓝 瘦 香菇 ? 即 为 难受， 想 峰 ” 
绪 ， 但 现 有 的 情感 词 
情感 特征 的 提取 ， 从 
民情 的 方法 ， 


出 一 定 的 情感 
现 出 了 负面 情 
词汇 ， 会 影响 


性 ， 故 提出 扩 


色彩 , 如 


无 法 


志文 本 语言 随意 灵活 ， 从 而 衍生 出 大 量 
此 


匹配 


所 颖 的 网 
词语 还 表现 


J 忆 


日 益 更 新 的 网 络 


[a 


感 词典 作为 


现 功 能 , 抽取 出 微 


分 析 这 些 新 词 
它们 加 入 到 基 


a) 提取 新 词 


而 


[a 
情感 词 
| 


博文 本 中 的 新 


? 


利用 


j 影 响 情 感 要 素 抽 
将 Hownet 的 
NLPIR 汉语 分 词 系 统 的 新 词 发 
词 ,然后 再 通过 word2vec 模型 ， 


的 | 


而; 


吕 


， 有 具体 过 程 如 


下 : 


现 


FP 文正 负 


取 的 准 


血 情 


青 感 倾向 ， 最 终 确定 带 有 感情 色彩 的 新 词 ， 将 
青 感 词典 


。NLPIR 系统 不 仅 可 以 实现 自 适 应 分 词 ， 还 可 


hy 


以 从 较 长 的 微 博文 本 中 ， 


a 


交叉 灶 


工具 本 身 
用 该 工具 提供 


次 只 能 分 析 


的 系统 开发 文档 ， 


葵 寺 信和 县 
条 文本 ， 无 法 处 
凤 劲 


自动 提取 新 


词 。 但 该 


里 海量 文本 。 因 此 利 


找到 提 


作 修 改 ， 即 可 


b) 新 词 情感 倾 


遍 


历 所 有 的 微 博文 本 来 提取 
各 的 确定 。 本 文通 过 word2vec 模型 来 确定 
这 些 新 词 的 情感 倾向 。word2vec(word to vector) 是 


2013 年 开发 的 


A 


可 量 表 不 J 


f 词 的 接 
新 词 。 


程序 ， 稍 


Google 于 


[ 具 , 通过 训练 ,可 以 用 


K 维 向 量 


空间 来 表示 微 博文 本 ， 然 后 对 向 量 进行 运算 ， 得 到 空间 上 的 相 


似 度 ， 也 就 计算 出 微 博 文本 语义 上 的 相 
word2vec 模型 的 这 个 功能 ， 
中 与 新 词 最 相似 的 那个 词语 ， 然 后 再 去 匹配 基础 情感 词 


因此 利用 


以 度 。 
可 以 计算 出 微 


志文 本 


所， 确 


定 相 似 词 是 正面 的 ， 负 面 的 ， 还 是 中 立 的 ， 从 而 得 到 新 词 的 情 


感 倾 向 。 最 终 将 正 负面 情感 


1.4 特征 选择 


项 向 的 新 词 加 入 到 情感 词典 


中 。 


采用 条 件 随机 场 识 别 的 情感 要 素 包 括 : 正 负面 情感 词 和 复 
杂 结 构 词 , 正 负面 情感 词 是 决定 微 博 句 子 情感 倾向 的 主要 因素 ， 
复杂 结构 词 是 影响 微 博 句 子 真 实情 感 倾向 的 主要 因素 ， 二 者 缺 
不 可 。 准 确 识别 这 些 情感 要 素 离 不 开 有 价值 可 靠 的 语言 特征 。 
本 文选 取 四 类 特征 来 识别 情感 要 素 : 基本 特征 ,语义 依存 特征 ， 


复杂 句 式 特征 ， 情 感 特 征 ， 其 中 基本 特 和 
[ 业 大 学 的 语言 技术 平台 

platform,LTP ) 获得 的 , 复杂 句 式 特征 
获得 ， 情 感 特 征 通过 扩 


通过 哈尔滨 了 


中 的 每 个 词 ， 


司 一 般 是 连词 


< 
EE] 


展 的 情感 词 


基本 特征 包括 词 和 词性 特征 。 词 特征 ， 即 分 词 后 微 博文 本 


是 乡 


和 丰 = 


粒度 


司 后 每 个 词 的 词性 


， 如 


了 月 


E 和 语义 依存 特征 都 是 
(language technology 
通过 构建 的 复杂 结构 词 表 


获得 。 


体 妇 


[以 提取 每 个 词 的 词性 特 行 


[下 : 


青 感 分 析 的 具体 对 象 。 词 性 特征 ， 指 分 
E 负 面 情感 词 一 般 是 形容 词 ， 复 杂 结 构 
F 对 情感 要 素 的 提取 


感 倾 向 ， 故 根据 学 生 微 博 特 点 构建 如 表 2 所 示 的 转折 词 。 


表 2 转折 词 表 
类 别 举例 

虽然 …… 但 是 、 然 而 、 但 是 、 却 、 
转折 词 不 管 (无 论 ).……. 也 (都 ) 


尽管 …… 但 、 即 便 .……. 也 、 


否定 结构 词 即 微 博文 本 中 的 否定 词 ， 修 饰 情感 词 ， 


影响 


微 博 的 情感 倾向 ， 如 :“ 早 就 预料 到 了 ， 所 以 一 点 都 不 难过 ”。 
“难过 ”是 负面 情感 词 ， 在 否定 词 “不 ”的 修饰 下 ， 微 博文 本 情感 


倾向 呈正 面 的， 忽略 此 类 结构 的 文本 将 丢失 大 量 有 价值 的 文本 
信息 。 故 构建 如 表 3 所 示 的 否定 词 。 


表 3 否定 词 表 
关 别 举人 
否定 词 不 、 不 是 、 没 有 、 不 要 、 别 、 无 、 不 太 


将 上 述 构建 的 转折 结构 和 和 否定 结构 词 表 ， 分 别 与 分 词 后 的 
词语 进行 匹配 来 判断 该 词 是 否 具有 复杂 句 式 特征 。 该 特征 采用 
二 元 特征 值 表 示 法 如 表 4 所 示 。 

表 4 复杂 句 式 特征 


特征 特征 信息 表示 方法 
转折 词 或 否定 词 1 表示 
复杂 句 式 特征 
其 他 词 0 衣 丰 
情感 特征 , 为 了 识别 出 的 正 /负面 情感 词 更 加 准确 , 通过 上 


述 构 建 的 情感 词典 与 分 词 后 的 各 词 进行 匹配 ， 将 匹配 正确 的 情 


感 词 ， 采 用 三 元 特征 值 表 示 法 表示 ， 具 体 如 表 5 所 示 。 
表 5 情感 特征 
特征 特征 信息 表示 方法 
正面 情感 词 1 表示 
情感 特征 负面 情感 词 -1 表示 
其 他 词 j 0 表示 


语义 依存 特征 ， 可 以 将 各 个 词语 之 间 的 语义 关联 以 一 种 依 


存 关系 的 结构 呈现 出 来 ， 不 受 句法 结构 的 影响 ， 这 是 跟 依 存 名 
法 特征 53 最 大 的 区 别 。 在 语义 依存 特征 的 辅助 下 ， 大 大 提升 正 
负面 情感 词 和 复杂 结构 词 识别 的 准确 率 。 


如 句子 1“ 不 是 这 样 的 ， 我 很 开心 。” 这 条 微 博 中 ，“ 不 "这 
属于 否定 结构 词 ，“ i 情感 词 ， 如 果 仅 靠 复杂 句 
式 特征 ， 那 “不 "就 会 被 标志 为 复杂 结构 词 ， 从 而 影响 微 博文 本 


心 ” 和 是正 
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的 真实 情感 倾向 。 融 合 语义 依存 特征 后 ， 根 据 各 个 词 之 间 的 语 
义 关联 , 可 分 析出 “不 "并 不 是 修饰 “开心 "的 复杂 结构 词 , 如 图 1 
所 示 ， 经 过 语义 依存 分 析 后 ， 可 看 出 “不 "和 “开心 "之 间 并 没有 
语义 关联 ， 而 “很 "与 “开心 "之 间 是 “mDegr" 程 度 标记 的 关系 。 


一 Rss 一 
meg. mhtoe es DR je 
bs 
| 站 \# a YY ' 站 i ' 
Root 不 是 这 样 的 我 很 开心 


图 1 句子 1 的 语义 依存 分 析 柜 


从 而 在 最 终 的 识别 结果 中 ,不 ”会 被 识别 为 背景 词 , 这样， 
根据 识别 出 的 正面 情感 词 ， 即 可 判断 出 微 博文 本 的 真实 情感 倾 
向 。 同 理 ， 正 负面 情感 词 的 识别 亦 是 如 此 ， 如 句子 2: 好 吧 ， 这 
么 差 的 饭店 以 后 不 会 来 了 。 依 赖 情感 特征 捕 提 情 感 词 ,“ 好 ”和 
“ 差 ?都 会 被 识别 为 情感 词 ， 融 合 语义 依存 特征 后 ， 即 可 判断 出 
“好 ?是 语气 词 , “ 差 ” 才 是 真正 带 有 感情 色彩 的 形容 “饭店 ”的 情 
感 词 。 如 图 2 所 示 ， 经 过 语义 依存 分 析 后 ， 将 分 词 后 的 词 之 间 
的 关系 都 展现 出 来 , 可 以 看 到 “好 ”与 “ 吧 ” 之 间 的 关系 是 “mTone”， 
表示 语气 标记 ， 而 “ 差 ? 才 是 真正 的 对 “饭店 ”的 评价 ， 呈 现 出 
“Desc” 描 写 的 关系 。 


———mPars— 
fnPUne- , \ 
了 one mMDegt /MA / MRang. mHeg mhto | mTone 
r ' TY 站 \ ' r 站 \¢ 1 ' 
Root 好 吧 这 么 差 EE 饭店 以 后 不 会 来 时 


图 2 句子 2 的 语义 依存 分 析 


这 样 引入 语义 依存 特征 , 对 准确 识别 情感 要 素 有 很 大 帮助 ， 
而 且 比 依存 句法 特征 价值 更 高 ， 取 得 效果 也 更 好 。 此 特征 的 详 
细 描 述 如 表 6 所 示 。 


表 6 语义 依存 特征 


Ee 


村 征 特征 信息 


含义 
分 词 后 的 各 词 在 依存 关系 中 的 父 节 点 词 
语义 依存 父 节 点 词 的 词性 分 词 后 各 词 的 父 节 点 词 的 词性 


特征 分 词 后 的 各 词 与 其 父 节 点 词 之 间 的 依 在 


父 节 点 词 


Hm 


2 ”基于 复杂 句 式 的 微 博 情感 倾向 分 析 


情感 要 素 抽取 之 后 ， 也 就 实现 了 细 粒 度 的 情感 分 析 ， 借 助 
抽取 出 的 情感 要 素 ， 还 需要 分 析 微 博文 本 的 情感 倾向 。 一 般 的 
微 博文 本 情感 分 析 属 于 粗 粒度 的 情感 分 析 ， 经 常用 到 的 方法 是 
情感 词典 法 和 机 器 学 习 法 ， 这 类 方法 缺乏 对 复杂 句 式 的 有 效 分 
析 ， 即 没有 考虑 到 微 博文 本 中 的 复杂 结构 词 。 因 此 提出 基于 复 
杂 句 式 的 情感 倾向 分 析 方 法 。 
2.1 复杂 句 式 文本 介绍 

根据 不 同 的 句子 结构 ， 中 文 文本 呈现 不 同 的 句 式 。 一 般 来 


说 中 文 文本 有 简单 结构 和 复杂 结构 两 类 。 微 博文 本 亦 是 如 此 ， 
简单 结构 的 文本 是 指 由 主 谓 或 主 谓 宾 结 构 构 成 的 句子 ， 这 些 句 
子 结构 简单 ， 表 达 单一 ， 统 称 为 简单 句 式 ， 而 复杂 结构 的 文本 
是 指 由 两 个 或 两 个 以 上 单 句 组 成 ， 单 句 之 间 用 分 号 、 逗 号 等 标 
点 符号 隔 开 ;或 通过 特定 的 连接 词 连接 的 句子 ， 这 类 句子 之 间 
相互 关联 , 合 在 一 起 才能 表达 完整 意思 , 称 为 复杂 句 式 0149。 如 : 
“今天 天 气 很 好 ”这 是 一 个 简单 句 式 ,而 “今天 天 气 很 好 , 但 心情 
却 不 美好 ”这 就 是 一 个 复杂 句 式 ， 其 中 包含 连接 词 “但 ”侧重 强 
调 “ 心 情 不 好 ”。 

根据 文本 中 单 名 之 间 的 关系 ， 复 杂 名 式 有 八 种 结构 :选择 
结构 、 并 列 结构 、 递 进 结构 、 条 件 结构 、 转 折 结 构 、 取 侈 结构 、 


因果 结构 、 假 设 结构 中 。 具 体 如 表 7 所 示 。 
表 7 复杂 结构 举例 

复杂 结构 常用 连接 词 举例 
并 列 结构 又 ,i 又、 那么 .那么 
递 进 结构 不 但 .…… 而 且 、 不 仅 …… 还 
转折 结构 虽然 .…… 但 是 、.…… 但 、 即 使 .…… 也 
条 件 结构 只 要 ...….. 就 、 只 有 .…., 才 
因果 结构 因为 .…… 所 以 、 因 此 
选择 结构 不 是 .…… 就 是 、 是 .…… 还 是 、 或 者 .……. 或 者 
取舍 结构 与 其 .不 如 、 宁 可 ;也 
段 设 结 构 如 果 .…… 就 


现在 的 微 博文 本 表达 形式 多 样 ， 语 言 随意 灵活 ， 多 为 复杂 
句 式 ， 因 此 分 析 微 博文 本 的 情感 倾向 ， 更 应 该 考虑 微 博文 本 中 
的 复杂 结构 。 通 过 分 析 以 上 8 种 复杂 结构 ， 可 知 微 博文 本 中 的 
转折 结构 词 ,会 影响 文本 的 情感 倾向 ， 如“ 天气 虽 好 , 但 心情 却 
很 低落 ”这 条 微 博文 本 中 ， 有 两 个 情感 词 ， 一 个 “好 ”， 一 个 “ 低 
落 ”， 转 折 结 构 词 “ 虽 .….…. 但 ”使 文本 情感 发 生 转变 , 这 种 情感 转 
变 叫 做 情感 偏 移 。 除 了 因 单 句 之 间 的 关系 形成 的 复杂 结构 ， 本 
文 将 否定 结构 的 微 博文 本 也 归 为 复杂 结构 ， 因 为 否定 结构 也 会 
引起 微 博文 本 情感 偏 移 , 如 :“ 我 不 大 高 兴 ”,“ 高 兴 ” 是 正面 的 情 
感 词 ， 否 定 词 “不 ”的 修饰 使 句子 表现 出 负面 情感 ， 因 此 在 判断 
微 博文 本 的 情感 倾向 时 ， 必 须 考虑 到 文本 中 的 转折 结构 词 和 和 否 
定 结构 词 。 
2.2 ”情感 倾向 性 分 析 
基于 复杂 句 式 的 文本 情感 倾向 性 分 析 ， 需 要 将 识别 出 的 情 
感 要 素 与 文本 模式 相 结合 。 文 本 模式 有 如 下 三 种 : 

a) 无 复杂 结构 词 模 式 , 此 类 模式 的 文本 情感 倾向 与 情感 词 
极 性 一 致 。 

b) 否 定 结构 词 + 情 感 词 模式 ,此 类 模式 的 文本 情感 倾向 与 
情感 词 极 性 相反 。 

0c) 转折 结构 词 + 情感 词 模式 。 转折 结构 词 又 分 单个 关联 词 模 
式 和 多 个 关联 词 模式 。 单 个 关联 词 模式 ， 如“ 天气 很 好 , 但 却 
点 难过 ”此 时 文本 的 情感 倾向 性 跟 转折 结构 词 后 的 情感 词 极 性 
一 致 ， 多 个 关联 词 模式 ， 如 “虽然 天 气 很 好 ， 但 有 点 难过 ”， 此 


好 
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时 文本 的 情感 倾向 性 与 第 二 个 关联 词 后 的 情感 词 极 性 一 致 。 
具体 文本 情感 倾向 的 分 析 过 程 如 图 3 所 示 。 


CRF 识 别 出 正 负面 情 
感 词 和 复杂 结构 词 


遍历 分 词 后 的 微 博 匹配 第 二 种 "否定 缚 
文本 构 词 + 情感 词 "模式 


有 复杂 结 
构 词 ? 


匹配 第 三 种 "转折 结 
构 词 + 情感 词 模式 


匹配 第 一 种 "无 复杂 
结构 词 "模式 


图 3 微 博 情感 分 析 流 程 民 


过 上 述 方式 可 分 析出 每 条 微 博 的 情感 倾向 。 当 匹配 第 一 
种 模式 时 ， 文 本 情感 倾向 与 情感 词 极 性 相同 。 当 匹配 第 二 种 模 
式 时 ,文本 情感 倾向 与 情感 词 极 性 相反 。 当 匹配 第 三 种 模式 时 ， 
转折 关联 词 只 有 一 个 时 ， 文 本 情感 倾向 与 关联 词 后 的 情感 词 极 
性 相同 ， 转 折 关 联 词 有 多 个 时 ， 文 本 情感 倾向 与 第 二 个 关联 词 
后 的 情感 词 极 性 相同 。 最 后 ， 统 计 判 断 出 的 正 负面 情感 的 微 博 
文本 数 ， 得 到 学 生 整 体 的 情感 倾向 。 


3 ”实验 结果 及 分 析 
3.1 语 料 收集 及 预 处 理 
本 次 实验 的 数据 来 自 新 浪 微 博 ， 以 “山西 农业 大 学 ”为 关键 


字 疏 取 学 生 微 博 10000 条 ， 经 过 人 工分 类 ， 具 体 的 数据 信息 如 
表 8 所 示 。 


(ea 


表 8 微 博文 本 统计 信息 


微 博 微 博 数 
正面 情感 5 002 
负面 情感 2 891 

中 立 2 107 


首先 去 除 中 立 的 微 博文 本 ， 对 剩余 的 含有 无 效 网 址 及 字符 
的 微 博文 本 进行 预 处 理 ， 然 后 ， 对 经 过 分 词 后 的 微 博文 本 采用 
文献 [13] 提 出 的 协同 训练 的 方式 进行 半 自 主 标注 ， 最 后 进行 五 
折 交 叉 验 证 实验 ， 即 将 所 有 的 微 博文 本 分 为 五 份 ， 其 中 四 份 为 
训练 集 ， 用 于 训练 分 类 模型 ， 一 份 为 测试 集 ， 用 于 验证 情感 要 
素 识 别 的 效果 。 
3.2 情感 词典 构建 结果 

根据 1.3 节 扩 展 情 感 词典 的 方法 , 在 基础 情感 词典 HowNet 
的 基础 上 ， 加 入 了 当下 较 流 行 的 网 络 词汇 ， 如 下 表 9 所 示 。 


表 9 常用 网 络 词汇 


类 别 举例 数量 
正面 情感 词 笔 芯 ， 比 心 ， 么 么 味 ， 棒 棒 叶 等 20 
负面 情感 词 蓝 瘦 ,香菇 ， 扎 心 ， 智 障 等 20 


3.3 ”情感 要 素 识别 的 结果 

实验 中 采用 CRF 模型 作为 情感 要 素 识别 的 工具 , 采用 哈 工 
大 的 LTP 语言 云 获得 词 、 词 性 及 语义 依存 特征 ， 采 用 构建 的 转 
折 结 构 词 表 和 和 否定 结构 词 表 获得 复杂 句 式 特征 ， 采 用 扩展 的 
Hownet 的 中 文 情 感 词典 获得 情感 信息 特征 。 选 用 不 同 的 方法 对 
微 博 语 料 进行 情感 要 素 识别 效果 的 比较 , 将 精准 率 P(Precision)， 
率 R(Recal) 和 F-measure 〈 精 准 率 和 召回 率 的 调和 平均 值 ) 
作为 识别 效果 的 评价 指标 。 得 到 结果 如 表 10 所 示 。 
表 10 情感 要 素 识别 

学 生 微 博文 本 
P(%) RW%)  F(%) 


这 
互 


方法 ”特征 选取 情感 要 素 


复杂 结构 词 78.6 72.0 950 
词 + 词性 + 复杂 
1 正面 情感 庄 71.2 59.6 64.9 
句 式 特征 
负面 情感 证 69.5 55.8 61.9 
杂 结 构 词 62.3 60.7 61.5 
词 + 词性 + 情感 
2 正面 情感 词 78.4 76.2 77.3 
特 和 本 
负面 情感 词 80.7 68.9 74.3 
词 + 词 性 + 复杂 复杂 结构 词 82.8 74.5 78.4 
3 句 式 特征 + 情感 ”正面 情感 词 79.5 80.1 79.8 
特征 负面 情感 词 76.3 74.9 75.6 
词 + 词 性 + 复杂 复杂 结构 词 85.3 80.5 82.8 
句 式 特征 + 情感 ”正面 情感 词 83.6 79.4 81.4 
4 
特征 + 依存 句法 i 
国 负面 情感 词 85.3 83.2 84.2 
特征 
词 + 词 性 + 复杂 复杂 结构 词 85.1 87.8 86.4 
句 式 特征 + 情感 ”正面 情感 讨 90.6 86.9 88.7 
5 
特征 + 语义 依存 本 a 
时 负面 情感 词 87.7 92.6 90.1 
特征 


从 表 中 可 以 看 出 ， 第 一 种 方法 选取 了 词 、 词 性 和 复杂 句 式 
特征 ， 在 这 三 种 特征 的 作用 下 ， 复 杂 结 构 词 的 精准 率 和 召回 率 
都 达到 了 70% 以 上 ， 但 是 情感 词 的 综合 识别 率 却 不 是 很 高 。 主 
要 因为 没有 可 以 捕捉 情感 词 的 具体 特征 ;第 二 种 方法 选取 了 词 、 
词性 和 情感 特征 ， 情 感 词 的 综合 识别 率 提 高 了 ， 但 复杂 结构 词 
的 精准 率 和 召回 率 却 大 幅度 下 降 ， 只 有 60% 多 。 因 此 有 了 第 三 
种 方法 ， 结 合 了 前 面 两 种 方法 的 特征 ， 复 杂 句 式 特征 对 捕捉 复 
杂 结 构 词 有 一 定 的 作用 ,情感 特征 对 捕捉 情感 词 有 一 定 的 作用 ， 
故 大 大 提升 了 情感 要 素 的 识别 率 。 第 四 种 方法 加 入 了 依存 句法 
特征 ， 可 分 析 文 本 中 各 词 之 间 的 依存 关系 并 揭示 句法 结构 ， 可 
发 现 ， 情 感 要 素 的 识别 率 都 明显 提升 了 ， 主 要 是 因为 依存 句法 
特征 有 效 揭示 了 各 词 之 间 的 依赖 关系 ， 排 除了 一 些 没有 情感 意 
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国 
国 


chinaXiv 


录用 稿 


义 的 情感 要 素 。 第 五 种 方法 ， 将 依存 句法 特征 换 成 语义 依存 特 


征 ， 不 同 点 是 语义 依存 特征 能 跨越 句子 表层 句法 结构 的 约束 ， 
获取 深层 的 语义 信息 ， 得 到 的 效果 比 依存 句法 特征 好 很 多 ， 精 


准 率 和 召 


I 


率 都 有 很 大 提升 。 
3.4 情感 倾向 分 析 结 果 


识别 情感 要 素 后 ， 基 于 复杂 句 式 对 微 博 进行 情感 倾向 性 分 


析 , 并 与 传统 的 朴素 贝 叶 斯 分 类 方法 进行 比较 , 结果 如 表 11 所 
示 。 
表 11 微 博 情感 倾向 分 析 结 
正面 情感 负面 情感 
序号 方法 
P% R% FI%  P/% R% FI% 
1 朴素 贝 叶 斯 79.2 72.1 75.5 73.4 69.7 71.5 
2 CRF+ 复 杂 句 式 883 85.6 86.9 849 90.8 87.8 
分 析 结 果 , 可 发 现 朴素 贝 叶 斯 分 类 器 分 类 得 到 的 情感 倾向 
结果 ,综合 识别 率 要 偏 低 ,主要 是 因为 没有 选取 比较 有 效 的 语言 


特征 ,对 文本 


出 结合 CRF 


UD 


的 复杂 句 式 也 没有 处 理 。 针 对 这 些 问 题 ,本 文 提 
和 复杂 句 式 的 跨 粒 度 情感 分 析 方 法 ,通过 CRF 模型 


识别 出 真正 影响 微 博 情 感 的 情感 要 素 ,再 结合 复杂 句 式 判断 每 


条 微 博 的 情感 倾向 ,这 村 


I 


率 都 达到 


Tt 


判断 出 的 正 /负面 


情感 文本 ,精准 率 和 召 


85% 左 右 。 


4 ”结束 语 


现 有 的 1 
微 博 文本 的 1 
虑 影响 情感 


青 感 分 析 方 法 大 都 是 粗 粒度 的 分 析 方 法 ， 分 析 一 条 
青 感 倾向 ， 忽 略 了 微 博文 本 中 的 复杂 句 式 ， 没 有 考 
项 向 的 各 种 语言 特征 ， 本 文 提 出 一 种 器 粒度 的 情感 


分 析 方 法 ， 首 先 利用 条 件 随机 场 模型 ， 充 分 考虑 文本 中 的 各 种 


语言 特征 ， 对 微 博文 本 进行 
的 情感 要 素 ， 
粗 粒 度 的 情感 分 析 ， 最 终 得 到 学 生 微 博 整 体 的 情感 倾向 ， 达 到 


粒度 的 情感 分 析 ， 识 别 出 文 本 中 
然后 结合 复杂 句 式 ， 判 断 文本 的 情感 倾向 ， 实 现 


了 从 细 粒 度 到 粗 粒 度 的 跨 粒度 情感 分 析 。 


本 文 实现 了 对 学 生 微 博 的 情感 分 析 ， 即 通过 分 析 得 到 了 学 


生 整 体 的 情感 倾向 ， 


便于 学 校 管理 和 及 时 了 解 学 生 情 绪 动 态 。 


相关 上 


个 


但 是 没有 做 台 
将 侧重 于 分 析 学 生 情 感 的 对 象 ， 引 出 学 生 
以 及 对 此 话题 的 观点 ， 达 到 与 情 分 析 的 
与 论 引 导 ， 有 效 遏 制 不 良 与 情 的 发 展 。 


致 分 析 来 了 解 学 生 情 感 的 对 象 ， 未 来 的 研究 工作 
比较 关注 的 热点 话题 
的 ， 最 终 还 可 以 进行 


下 
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